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Comment extraire / parser les urls de résultats de recherche de Google ? 


Cela fait plusieurs fois qu'on me demande comment extraire les urls de résultats de recherche de Google 
dans le but de les utiliser pour diverses raisons : recherche de pages de soumission d'annuaires, 
recherche des pages de blog avec commentaires, pages de forums, commande link ou site... 


Voici donc un script php qui permet d’extraires ces urls de Google. 


Différentes options sont proposées, comme le nombre de pages à extraire ou le moteur Google où se fera 
l'extraction ainsi que la langue du moteur. 


Code source du script : 


Voici le code du script php à copier/coller dans un fichier et à uploader sur votre serveur ou à utiliser en 
local : 


<?php 
{Script php : Extraction urls Résultats Google 

Copyrights 2008 Seocblackout.com 

//http://wwmw.seoblackout.com 

//Ur1l script : http://www.seoblackout.com/2008/10/26/extraire-resultats-googlé 


5 & NH 


@set time limit (0); 


8 Suseragent- f 
9 $regex= ; 
10 //extension et langue google 
LT if ((isset($ POSTI ])) && ($ POSTI ]!="")) 
12 { 
13 $ext=strip tags($ POSTI Jde 
ET ir 14 Copyrights 2007 - 2014© 
} Propulsé par 
else if ($ext— raq 28 requêtes bdd. 
za ; Page générée en 0,824 secondes. 
20 else if ($ext== EE 
al $lang= 7 
22 } 
23 else if ($ext=='de') { 
24 $lang= H 
25 } 
26 else if ($ext—'ca') { 
27 $lang= ; 
2 } 
e E3 
Sex 
} 
else { 
Şext= ; 
$lang= ; 
} 
} 
else 


{ 


40 // par défaut, on recherche sur google.fr et lang=fr 


41 Sext='fr'; 
42 $lang= ; 
43 } 
44 //nombre de page à extraire : 
45 if ((is numeric($ POSTI É ])) && ($ POSTI ]!='"')) 
| { 
$c=(strip tags($ POST! es'])-1); 
} 
else 
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50 { 
51 //10 pages par défaut, on part de 0 donc 10 pages = 9 
52 Sc=9; 
53 } 
54 
25 if ((isset($ POST['kw'])) && ($ POST['kw']!='')) 
56 { 
57 $kw=trim(strip tags($ POST['kw'])); 
58 $pagenum = 0; 
59 $googlefrurl = "http://www.google.".$ext."/search?hl=".$lang."&q=" . urlencod 
60 $url new = ''; 
61 
62 while ($pagenum <= $c) 
63 { 
64 if (function exists('curl init')) 
65 { 
66 $ch = curl init(); 
67 curl_setopt ($ch, CURLOPT USERAGENT, $GLOBALS | 'useragent]); 
68 curl_setopt ($ch, CURLOPT URL, $gocglefrurl) ; 
69 curl setopt ($ch, CURLOPT RETURNTRANSEER, 1) ; 
70 $result-curl exec ($ch); 
71 curl close ($ch); 
72 } 
73 else 
74 { 
75 $result= file get contents ($googlefrurl); 
76 } 
77 preg match all('/'.$regex.'<a href="(.*?)"/si', $result; $matches); 
78 $i = 0; 
79 $n = count ($matches[1]); 
80 $pagenum++; 
81 $pagenum2 = $pagenum. '0'; 
82 $googlefrurl = "http://www.google.".$ext."/search?hl=".$lang."&q=" . urlend 
83 
84 while ($i <= $n) 
85 { 
86 $url_newl = addslashes ($matches[1] [$i]); 
87 $url new .= trim($matches[1][$i])."<br>"; 
88 $i++; 
89 flush{(}} 
90 } 
91 } 
92 $url new .= ''; 
93 } 
94 ?> 
95 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http: //www.w3 | 
96 <html xmins="http://www.w3.0org/1999/xhtml"> 
97 <head> 
98 <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /> 
99 <title>Extraction Urls résultats Google</title> 
00 </head> 
01 <body> 
02 <h1>Extraction Urls résultats Google</h1> 
03 <div> 
04 <?php 
05 if ((isset($ POST['kw'])) && ($ POST['kw']!='")) { 
06 echo "<h3>Keyword : ",strip tags ($kw),"</h3>"; 
07 echo "<h6>Google Results</h6>"; 
08 echo str replace ('<br><br>"','<br>',$url new); 
09 } 
0 ?> 
i <form method="POST" action="<?php echo strip tags ($_SERVER['REQUEST_URI']) ;?> 
2 <p>Saisir vos mots-clés :</p> 
3 <input name="kw" type="text" size="100" value="<?php if (isset($ POST['kw'])) 
4 <p>Nombre de pages à extraire (optionel => 10 pages par défaut) :</p> 
5 <input name="pages" type="text" size="3" maxlength="3" value="<?php if (isset | 
6 <p>Moteur :</p> 
Ji <select name="ext"> 
8 <option value="fr"<?php if (($ POST['ext'])—"'fr') {echo ' selected';} ?>>Good 
9 <option value="com"<?php if (($ POST['ext'])=—"'com') {echo ' selected';} ?>>Gq 
20 <option value="es"<?php if (($ POST['ext'])—"'es') {echo ' selected';} ?>>Good 
21 <option value="de"<?php if (($ POST['ext'])—'de') {echo ' selected';} ?>>Good 
22 <option value="ca"<7? if (($ POST['ext'])—="'ca') {echo ' selected';} ?>>Good 
23 <option value="ca2"<?php if (($ POST['ext'])=='ca2') {echo ' selected';} ?>>Gd 
24 </select> 
25 <p><input type="submit" value="Go" name="go"> 
26 <input type='button' value='Annuler" onclick='location.href="<?php echo strip| 
27 </form> 
28 <br /> 
29 <small>Script proposé par SEO BlackOut : <a href="http://www.seoblackout.com/"| 
30 </div> 
31 </body> 
32 </html> 
K| IO 
Démo : 
Dans la démo, le nombre de résultats extraits est limité à 3 pages uniquement ! 
http://ww.seoblackout.com/scripts/extraire-urls-google. php 
Tweet 
Articles liés : 
e Extraire les urls des résultats de Bing 
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Google propose d'afficher les résultats de recherche en anglais pour certaines requêtes 
Référencement Google, nouvel ajout dans les résultats ? 

Extraire les backlinks référencés par Alexa 

Google Wonder Wheel PHP Script 

Identifier les pages en résultats complémentaires 


Commentaires (29) 
Catégorie: Scraping, Scripts PHP 
Besoin d'une prestation en référencement ? Nous contacter 


Commentaire par Mode enfant Magazine 
Dimanche, 26 octobre , 2008 à 23:38 


Bon script @ 
Attention cependant au captcha pour requêtes automatisées @ 


Commentaire par admin 

Lundi, 27 octobre , 2008 à 0:06 

Yep à utiliser en local si ip variable ou faire tourner sur différents serveurs ou passer par proxy ou ne pas 
abuser... ou connaitre les techniques secrètes (G) 

Commentaire par tictact 

Lundi, 27 octobre , 2008 à 12:52 

très bon script 


thanks paulo 


Commentaire par guizme555 
Lundi, 27 octobre , 2008 à 17:46 


Merki encore une fois pour ce script © Je fais tourner ! 


Commentaire par Rudy 
Verdi, 28 octobre , 2008 à 22:14 


Yo © 


En voyant le titre je me suis dit cool voila du contenu :p 
Mais en testant je me suis rendu compte que le script recupère les url uniquement,a quoi ca sert ? 


J'ai cru qu'avec on pouvait choper le contenu des 1ers pages de résultats 


Commentaire par Louis-Philippe Huberdeau 
Verdi, 28 octobre , 2008 à 22:25 


Tu peuxte sauver beaucoup d'effort en utilisant les API... 


Commentaire par admin 
Mercredi, 29 octobre , 2008 à 2:10 


@Louis-Philippe Huberdeau : l’api est intéressante, mais pas pour l'usage souhaité ici, api limitée... 


@Rudy, ça sert à te faire de belles listes d'urls à spammer automatiquement par exemple. 


Commentaire par lo 
Mercredi, 29 octobre , 2008 à 9:28 


Parfait. Merci pour ce script ! 


Commentaire par Karedas 
Mercredi, 29 octobre , 2008 à 13:37 


J'ai cru qu'avec on pouvait choper le contenu des 1ers pages de résultats 

Une fois que tu as les urls stockés, facile de faire un script spider qui va les explorer et en extraire le 
contenu. 

Il vaut mieux éviter extraction google et crawl en meme temps sans quoi t'en a vite pour plusieurs minutes de 
travail par recherche. 


Je suis très, mais alors très très, surpris que SEO BLACKOUT ne sache pas que, pour éviter le ban de l'ip 
par google, il suffit de remplacer ‘search’ par ‘custom’. 


Commentaire par admin 
Jeudi, 30 octobre , 2008 à 0:11 


Tinquiètes Karedas, on utilise custom aussi qui au passage n’est pas suffisant, il ne suffit pas de 
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remplacer custom par search, il ya d’autres paramètres à passer pour ne pas se faire bloquer mais ça on le 


garde en interne, ou alors je laisse le développeur du script le présenter sur SEO Blackout s’il le souhaite (G) 
(mais ça m'étonnerait qu'il accepte...) 


Commentaire par BlackMelvyn 
Vendredi, 31 octobre , 2008 à 16:35 


En effet, même s'il ya un intérêt pédagogique très important, les meilleures astuces Black Hat sont aussi 
les moins connues 

Peut-être que nous présenterons le script plus tard car la méthode est intéressante, mais pour le moment, 
c'est un peu trop précieux à mes yeux pour le dévoiler au public. .. et n'oublions pas qu'ici c'est aussi Don't 
be evil 

Sorry @ 

Je pense cependant que Paul en a méchamment aidé ici avec ce script ya plus qu'à E 


Commentaire par Jice 
Mercredi, 4 février , 2009 à 19:56 


Je viens de me mettre au python, et j'ai voulu commencer par l'adaptation de ce petit script. Le résultat est à 
voir ici : 
http///ice.lavocat.name/blog/2009/02/exraire-urls-des-resultats-google-en-python/ 


C'est pas un beau rendu dans une page web, mais ça m’a suffit pour apprendre les bases (récupération url, 
traitement avec Regexp.…). 

Le script a été un peu modifié pour contourner des problème que j'ai pas résolus autrement. Mon code est 
donc ‘sale’. Si vous avez des commentaires enrichissants à faire je suis preneur. De même qu’un bon 
plugin de Geshi pour WordPress... 


Commentaire par admin 
Jeudi, 5 février , 2009 à 22:14 


Salut Jice, 


Je peuxpas dire grand chose sur ton script vu que je connais pas python @® 
Par contre merci pour le lien 


Pour le plugin wordpress, je peuxte proposer WP-Syntax (c'est celui que j'utilise ici) : 
http:/Avordpress.org/extend/pluginsAwp-s\ntax 


Commentaire par Tigrou 
Mercredi, 17 juin , 2009 à 9:09 


Bonjour, 
Je me demandais si l’api google search permet d'éviter le ban de l'ip par google? 


Merci pour vos lumières 


Commentaire par Olivier 
Dimanche, 26 juillet , 2009 à 9:03 


Pour ma part, j'ai créé un script pour connaître la position de son site sur Google pour un mot clé donné : 
http:/Avmw.oliier-tassel.fr'outils/script-position-site-google-mot-cle 


Commentaire par Jack 
Verdi, 8 septembre , 2009 à 21:22 


De la balistique. 


- Exactement ce que je cherchais ; je cherche à faire un petit prototype de la même veine en Perl, suis 
penché sur le pb depuis plusieurs jours, mais ne vois toujours pas comment utiliser cURL ou libcurl pour 
extraire des URL de retours de requête Google ; en effet le source des pages de requête Google ne 
fournipas d'URL, mais plutôt des clés internes (à Google) pour chaque URL. 


Cf par exemple, sur un shell : 
curl ‘http/www.google fr/search? 
source=ig&hl=fr&rlz-8=&q=matrequete&btnG=Recherche+Google&meta=lr#3Dlang_fr&aq=f&oq=" 


- Louis Philippe : il est vrai que des tas d'interfaces, dans tous les langages, sont à disposition sur 
code.Google pour interroger la « Google Base API ». Les résultats sont donnés sous formes de flux XML, 
dans un format XML propre à Google : on peut alors exploiter les retours de requête Google de manière 
extrêmement fine, mais ça m'a l'air fastidieux. Utiliser cURL comme ici, en manipulant directement la 
syntaxe (http) des pages de resultat Google, me semble au contraire infiniement plus simple. 


@+ Bravo pour ton code, qui a un intérrêt énorme par rapport à ce qu’on trouve d'autre sur le sujet : il marche 
très bien !!! 


Commentaire par Stéphane 
Lundi, 22 février , 2010 à 8:56 


Salut, 


J'aurais aimer savoir quelque chose avant tout, est ce que google autorise ce genre technique à parser leur 
résultat ? 


Car au final ou pourrait presque en allant loin des les regex ce faire son propre moteur. Et puis ont utilise 
leur requêtes. 
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Risque ton quelque chose si il repère cela ? Risque ton d'être backlisté ou quelque chose du genre ? 
J'ai éssayé celui de Bing, ma foi bien et facile à mettre en place, sauf le nombre de résultat par page. 
Enfin merci de votre réponse. 


Bye 


Commentaire par Expert 
Mercredi, 7 avril , 2010 à 10:34 


Bonjour, 


Pour ma part, je l'ai mis en place sur un serveur FTP. 
Mais lorsque je lance une requête, il ne m'affiche rien sous « Google Results ». 
cela marche-t-il toujours pour vous ? 


Commentaire par nicolas laustriat 
Vendredi, 7 mai , 2010 à 13:05 


Ah! j'utilise cet extract depuis sa publication, il a toujours bien focntionné. Mais depuis hier nada. ..est ce que 
cela aurait un rapport avec la sortie « officielle » de Jazz? 


Commentaire par oups 
Mercredi, 12 mai , 2010 à 16:31 


Le script ne semble plus fonctionner depuis la nouvelle interface de Google. 
Dommage le script était assez efficace et simple à mettre en place... 


Commentaire par Emma 
Lundi, 17 mai , 2010 à 18:14 


Re-Bonjour, 
Désolée pour le « spam », je pense avoir compris pourquoi je n'arrive pas à utiliser vos scripts, cela doit être 
à cause de la nouvelle version de Google. 


Pouvez vous m'indiquez ce qui est à modifier dans chaque script (surement la même chose, ceux-ci utilisant 
tous le scrap sur google). 


Merci ® 


Commentaire par victor 
Mardi, 18 rai, 2010 à 11:51 


Ca ne fonctionne plus 
google a changé quelque chose ! 


a voir svp ! 
Commentaire par mac97000 
Samedi, 22 mai , 2010 à 15:00 


Eunre 


sauf erreur de ma part il suffit de remplacer : 
$regex='<h3 class=r>'; 


par 
$regex='<h3 class="r">!'; 


à la ligne 9 pour revoir apparaitre la liste des liens … 


Commentaire par nicolas laustriat 
Verdi, 25 mai , 2010 à 10:58 


Yes ca marche merci MAC97000 


Commentaire par mac97000 
Verdi, 25 mai , 2010 à 11:35 


pas de quoi, en même temps j'ai pas fait grand chose puisque je testais le script ® 


Commentaire par Remguy 

Vendredi, 23 juillet , 2010 à 17:28 

Personnellement j'ai pas réussi à le faire tourner... 
Commentaire par laustriat 


Verdi, 28 septembre , 2010 à 22:26 


yep définitiemant c'est un script que j'utilise régulièrement il est top mais je sais pas si vous avez w ca 
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aussi (du jour via @rudy su twitter)? http://blog.authorittabs.com/data-collection-with-google-spreadsheets/ 


j'ai comparé les résultats (on ne siat jamais) c’est conforme... 


Commentaire par Daniel Roch 
Jeudi, 24 novenbre , 2011 à 16:26 
Le script ne fonctionne plus ? 


Sur mon serwur, il ne me renvoie plus aucune donnée... 


Commentaire par Jocalaz Allan 
Verdi, 24 janvier , 2012 à 12:27 


Bonjour, 


Est-il possible de récupérer le title affiché par Google. En effet je cherche à travailler un site client qui a 200 
URLS indéxées, grâce à ce script je récupère toutes les urls, mais j'aimerais récupérer les titles pour un 


travail dessus .. 


Les commentaires sont fermés pour cet article. 
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